Introduzione alla programmazione con Triton: dai calcoli immediati ai blocchi paralleli

Passare da Modalità immediata di PyTorch a Triton richiede uno spostamento dal vedere i tensori come oggetti monolitici a vederli come insiemi di blocchi discreti e gestibili blocchi o matrici.

1. Tensori PyTorch vs. Triton

È fondamentale distinguere tensori Triton da tensori PyTorch. Un tensore PyTorch è un oggetto Python lato host che contiene forma, tipo, dispositivo, stride e metadati di archiviazione. Al contrario, Triton opera con i puntatori grezzi ai dati all'interno di blocchi di memoria specifici, consentendo ottimizzazioni a livello molto più basso.

2. Il collo di bottiglia dell'esecuzione immediata

Nell'esecuzione standard immediata, ogni operazione (ad esempio, addizione poi ReLU) richiede un lancio separato del kernel e un viaggio completo nella memoria globale. Questo rappresenta il principale collo di bottiglia nel calcolo moderno con GPU. Triton supera questo problema attraverso l'unione di operazioni all'interno di un singolo kernel che elabora blocchi di dati (ad esempio, 128, 256 o 512 elementi) direttamente nella memoria interna al chip.

3. Il paradigma basato sui blocchi

Invece del pensiero a livello scalare dei thread CUDA, Triton utilizza SPMD (Programma singolo, Dati multipli) a livello di blocco. Scrivi un solo kernel, e Triton avvia molteplici istanze su una griglia. Ogni istanza utilizza il suo program_id per calcolare quale "blocco" di memoria possiede.

4. Configurazione dell'ambiente

Per iniziare, installa Triton in un ambiente pulito (usando Conda o venv) per assicurarti che non ci siano conflitti di dipendenze con gli strumenti CUDA esistenti: pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.